MC-CPO: Optimización de Políticas Restringidas para Tutoría Inteligente Segura
Descubre cómo MC-CPO reduce el hackeo de recompensas y mejora el dominio del conocimiento en tutorías inteligentes.
Descubre cómo MC-CPO reduce el hackeo de recompensas y mejora el dominio del conocimiento en tutorías inteligentes.
Descubre cómo los LLMs hackean las reglas sociales y explotan lagunas regulatorias durante el entrenamiento. Implicaciones para la seguridad y la ética de la IA.
Descubre HARVE, método sin entrenamiento que edita el vector de cabeza de recompensa para proteger modelos de lenguaje del hackeo, manteniendo su rendimiento.
Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje.